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基于 直接 法 的 视觉 同时 定位 与 地 图 构建 技术 综述 
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摘 要 : 视觉 同时 定位 与 地 图 构建 〈V-SLAM) 在 机 器 人 、 无 人 机 导航 、 自 动 驾 驶 等 领域 有 着 广泛 的 研究 。 直 接 法 V- 
SLAM 基于 环境 亮度 不 变性 假设 ， 跟 踪 相 机 的 位 姿 并 构建 环境 地 图 。 针 对 直接 法 V-SLAM， 首 先 简 述 其 基本 原理 ; R 
后 分 析 、 比 较 几 种 具有 代表 性 的 直接 法 V-SLAM 系统 ; 最 后 讨论 直接 法 的 优 缺点 和 发 展 趋势 ， 并 进行 了 总 结 和 展望 。 
关键 词 : 计算 机 视觉 ; 同时 定位 与 地 图 构建 ; 直接 法 ; 运动 推断 结构 ; 多 视图 几何 
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Survey on direct-method visual simultaneous localization and mapping 
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Abstract: Visual simultaneous localization and mapping has a wide range of research in the fields of robot, unmanned aerial 
vehicle navigation, automatic driving, et al. Direct-method V-SLAM, based on the assuption of photometric consistency, tracks 
the camera’s position and orientation and builds an environment map. This paper, for the direct-method V-SLAM, summarizes 


the basic principles , and introduces some state-of-art direct-method V-SLAM systems with analysis and comparison. Finally, it 


discusses the advantages and disadvantages of direct-method V-SLAM and some research tendency, as well as making 


conclusion. 
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geometry 
Co "e 问题 被 当 作 一 个 状态 估计 问题 ,在 这 一 时 期 ,滤波 算法 在 SLAM 
== B 研究 中 占据 主导 地 位 。 研 究 人 员 应 用 状态 估计 理论 ， 表 示 传 感 


同时 定位 与 地 图 构建 (simultaneous location and mapping, 器 位 姿 和 环境 结构 的 不 确定 性 ， 然 后 应 用 滤波 器 更 新 优化 状态 
SLAM) 是 指 搭载 传感器 的 主体 ， 在 没有 环境 先 验 信息 的 情况 估计 的 均值 和 方差 外。 为 解决 状态 方程 的 非 线性 问题 ， 研 究 人 
下 ， 于 运动 过 程 中 跟踪 主体 的 位 置 与 姿态 〈 下 文 简称 “位 姿 ")， ” 员 将 扩展 卡尔 曼 滤波 (EKF)、 粒 子 滤波 (PF)、 无 迹 卡尔 曼 滤 
并 同时 构建 环境 结构 一 致 性 地 图 的 技术 0 。 而 视觉 同时 定位 与 ” 波 (UKF) 等 方法 应 用 于 SLAM 问题 中 。 该 时 期 的 代表 性 成 果 
地 图 构建 (V-SLAM) 所 用 的 传感器 主要 为 相机 由。 近年 来 视觉 ”有 EKF-SLAM、UKF-SLAM、FastSLAM 等 0012。 进 入 21 世 
同时 定位 与 地 图 构建 技术 已 经 在 室内 服务 机 器 人 、 自 动 芍 驶 汽 A, MALFE SLAM 研究 中 得 到 广泛 应 用 。Davison 在 2003 
车 、 无 人 机 导航 定位 以 及 增强 现实 设备 上 9 中 得 到 了 一 定 的 应 用 。 年 提出 了 MonoSLAMI31， 该 系统 基于 单 目 相机 和 EKF 框架 最 
例如 ， 智 能 手机 利用 摄像 头 和 imu 实时 定位 设备 在 环境 中 的 位 。 早 实现 了 实时 运行 的 V-SLAM 系统 。 同 时 在 该 时 期 ， 研 究 人 员 
Z, KI AR 效果 ; 无 人 机 利用 摄像 头 跟踪 自身 位 姿 、 构 建 环 发 现 计算 机 视觉 领域 的 运动 推断 结构 Cstructure-from-motion, 
境地 图 实现 自主 飞行 。 SFM) 问题 与 SLAM 问题 有 许多 共同 点 U4。SFM 技术 中 的 非 

从 1986 年 提出 至 今 ， 同 时 定位 与 地 图 构建 问题 已 经 有 起 线性 优化 方法 一 一 捆 集 调整 ‘bundle adjustment, BA) [5 被 引 
过 三 十 年 的 研究 。 该 技术 源 自 于 机 器 人 领域 ,在 最 早 涉及 SLAM ”入 SLAM 研究 中 , 成 为 V-SLAM 中 的 主导 方法 。 基于 关键 帧 与 
的 文章 中 ， 研 究 人 员 把 它 称 为 空间 状态 的 不 确定 性 估计 ” 捆 集 调整 的 PTAMU617 是 第 一 个 以 非 线性 优化 作为 后 端的 V- 
(estimation of spatial uncertainty) 51. 在 早期 的 研究 中 , SLAM SLAM 系统 。 它 开创 性 地 将 相机 位 姿 跟 踪 (tracking) 与 地 图 构 
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建 (mapping) 作为 两 个 线程 并 行 处 理 , 减 小 相机 位 姿 跟 踪 的 计 
算 量 、 优 化 地 图 构建 的 精度 ,成 为 V-SLAM 中 里 程 碑 式 的 工作 。 
之 后 提出 的 VSLAM 系统 ， 无 论 是 基于 特征 点 法 (如 ORB- 
SLAM!8191) 还 是 基于 直接 法 (如 LSD-SLAME0) 都 借鉴 了 
PTAM 的 算法 框架 。 

经 过 三 十 多 年 的 研究 ，V-SLAM 技术 


z 


成 了 以 视觉 里 程 计 
为 前 端 ， 非 线性 优化 与 滤波 为 后 端 ， 搭 配 回环 检测 和 建 图 模块 


的 稳定 框架 ,特征 点 法 和 直接 法 是 V-SLAM 中 的 两 种 主流 方法 。 
与 特征 点 法 相 比 ， 直 接 法 的 研究 时 间 较 短 。 但 经 过 近 几 年 的 发 
展 ， 直 接 法 在 SLAM 问题 的 研究 中 取得 了 突破 ， 实 现 了 与 特征 
点 法 相近 或 更 好 的 效果 。 本 文 专注 直接 法 VSLAM， 系 统 地 分 
析 和 比较 目前 几 种 代表 性 的 直接 法 VSLAM 系统 , 讨论 直接 法 
的 优 缺 点 和 发 展 趋势 ， 并 做 总 结 和 展望 。 


1 V-SLAM 基本 原理 


V-SLAM 技术 可 以 通过 相机 拍摄 的 图 像 序列 实时 跟踪 相机 


的 位 姿 ， 并 构建 环境 三 维 地 图 。 为 了 跟踪 相机 的 运动 ， 以 变换 
KE BE gp 表示 相机 的 位 姿 叫 ， 场 景 的 三 维 结构 由 空间 点 
X(X eR’) 表示 。 通 过 观测 方程 

Z, =h,(T,,X;)+n, (1) 


可 以 得 到 空间 点 天 EAL T, 图 像 上 的 观测 值 Z, n 表示 
观测 噪声 。 为 了 得 到 空间 点 与 相机 的 位 姿 ， 应 用 极 大 似 然 估计 
得 到 状态 估计 值 § 


F=argmax p(z|x)=argmax] | p(Z T.X) © 


于 观测 噪声 的 存在 ， 上 述 问题 可 以 转换 为 求解 如 下 目标 


argmax "|Z, ~h,(T,,X ;) 
1 所 示 ， 特 征 点 法 和 直接 法 用 不 同 的 方式 参数 化 公式 
点 法 通过 在 图 像 中 提取 特征 点 ， 并 匹配 特 
征 点 周围 的 描述 子 ， 得 到 对 应 的 特征 点 及 和 克之 间 的 重 投影 
误差 e 。 直 接 法 不 进行 特征 点 和 描述 子 的 匹配 ， 而 是 以 相机 位 
姿 估计 值 为 初始 值 , 依据 像素 梯度 寻找 与 像素 点 及, 对 应 的 像素 
Rh, 的 位 置 。 通 过 优化 光度 误差 7( 户 ) -7( 甩 ) 求 解 最 优 的 相 
HZP, 


(3) 


如 图 
(3) 中 的 残 差 。 特 征 


2 ”直接 法 V-SLAM 系统 


直接 法 V-SLAM 系统 主要 有 以 普通 相机 为 传感器 的 


H HI, 
SVO(Semi-direct Visual Odometry)??! ~ 
odometry)P3] 、 LSD-SLAM(large scale direct SLAM)P® 、 
DTAM(Dense Tracking and Mapping)P4, 以 及 以 RGB-D 相机 为 
传感器 的 DVOP5。 本 节 分 析 几 种 具有 代表 性 的 单 目 直接 法 V- 
SLAM 系统 ， 并 比较 其 优 缺 点 。 


DSO(direct sparse 


kk, F: 基于 直接 法 的 视觉 同 


2.1 


SVO 算法 分 析 


ChinaXiv@ (ERAT! 
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SVO 是 Forster 等 人 于 2014 年 提出 的 一 种 稀疏 直接 法 系 


Se. TE 2017 4 


惯性 器 件 C9。SVO 最 显著 的 特点 是 ， 前 端 基于 环境 亮度 不 变性 


ED Fe T KII 


相机 、 多 相机 功能 ， 并 融合 了 imu 


假设 跟踪 相机 位 姿 ， 后 端 仍 使 用 传统 的 最 小 化 重 投影 误差 的 方 
被 称 做 半 直 接 法 ， 重 构 效 果 如 图 2 


所 示 。 


单 


法 优化 全 局 地 图 ， 因 此 它 


(b) 像 素 光 度 误 差 


图 1 特征 点 法 与 直接 法 的 残 差 


图 2 


SVO 重 构 地 图 


SVO 算法 分 为 相机 位 姿 跟踪 与 地 图 构建 两 个 线程 ， 


如 图 3 所 示 。 


近似 为 上 一 帧 上 -1 的 位 姿 。 


在 相机 位 姿 跟踪 线程 中 ，SVO 将 当前 帧 4 的 位 姿 


将 大 -1 帧 保存 的 稀疏 特征 点 投影 到 


当前 帧 中， 


通过 最 小 化 前 后 两 帧 特征 点 的 光度 误差 ， 得 到 两 


帧 之 间 的 相对 运动 估计 值 T,， 


.1 
Ti = arg me PACUTE 
al Lier 


其 中 87() 为 光度 误差， 


SI (T, 1,0) =, (o(u,,4,., (2),T 1)) Le (u,) 
FE 点 与 位 姿 估计 的 累计 误差 ， 将 存储 在 关键 帧 
F 点 投影 到 当前 帧 上 中, 再 
F 点 在 当前 帧 中 的 优化 投影 位 置 : 


为 了 消除 特 行 
Foy 中 的 特 和 


a 
A 


n 


光度 误差 ， 得 到 特 生 


(4) 


(5) 


通过 最 小 化 投影 块 


(6) 


, 5 下 
u. = arg min 
1 = argmin| 


L (u;) A, TACHE Vi 
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最 后 , 最 小 化 特征 点 位 置 wi 与 预测 的 特征 点 位 置 之 间 的 重 
投影 误差 ， 分 别 得 到 优化 的 相机 位 姿 和 特征 点 空间 位 置 。 


zil ; 2 
T, =argmin z 9 lu; oT «Pil 0 


其 中 ; 代为 当前 时 刻 相机 在 世界 坐标 系 中 的 位 姿 ，,P 为 特征 
点 在 世界 坐标 系 中 的 空间 位 置 。 

为 构建 场景 地 图 ，SVO 的 后 台地 图 线程 持续 恢复 参考 帧 ， 
中 特征 点 的 空间 位 置 。 当 有 效 特 征 点 集合 二 的 数量 小 于 规定 阐 
值 ， 选 取 新 关键 帧 作为 参考 帧 ; 并 提取 特征 点 。 在 随后 观测 到 
的 各 帧 中 利用 极 线 搜 索 匹 配 特 征 点 的 位 置 ， 并 通过 三 角 化 得 到 
特征 点 的 道 深度 2 观测 值 jt 。 在 SVO 中 ， 利 用 一 种 高 斯 分 布 
加 均匀 分 布 " 的 模型 表示 逆 深 度 观测 值 的 分 布 Ps29) 


p(P'|p,7)=7N(P' |p,r )+( -7)U(P' | Prin Prax) ®© 
其 中 ; y 为 特征 点 是 内 点 的 概率 ，z? 为 内 点 观测 的 方差 ， 2 为 
REHE: [On Pran] 为 外 点 分 布 的 范围 。SVO 融合 各 帧 
中 特征 点 的 测量 信息 ， 当 方差 小 于 设 定 阐 值 ， 就 根据 估计 的 深 
度 值 将 特征 点 保存 至 环境 结构 地 图 中 ， 供 跟踪 线程 使 用 。 


相机 位 姿 跟 踪 线程 


稀疏 特征 点 像素 匹配 


J 


特征 点 像素 匹配 


isa 
网 
a 


1 

l 

相机 位 要 /空间 点 位 置 | | 
优化 | 


征 点 深度 


图 3 SVO 算法 框架 


2.2 LSD-SLAM 算法 分 析 

LSD-SLAM 是 一 种 比较 完备 的 SLAM AA. AEP HTS 
目 半 稠密 视觉 里 程 计 的 工作 中 ，Engel 在 2014 年 提出 了 单 
LSD-SLAM 系统 RH。 此 后 ,扩展 到 双 目 与 大 视角 相机 ， 实 现 了 


s 


手机 端的 AR 应 用 等 其 他 功能 B351。 


图 4 LSD-SLAM 的 重 构 效 果 P0 
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与 SVO 提取 稀疏 的 特征 点 不 同 ， 单 目 LSD-SLAM 系统 利 
] 图 像 中 像素 梯度 显著 的 区 域 进 行 位 姿 跟 踪 和 深度 重 构 ， 可 以 
恢复 半 稠 密 的 三 维 场景 地 图 ， 如 图 4。 整 个 算法 主要 分 为 三 个 
线程 ， 相 机 位 姿 跟踪 、 地 图 深度 估计 以 及 全 局 地 图 优化 。 在 位 
姿 跟踪 线程 中 ， 当 前 帧 ; 以 上 一 帧 图 像 的 位 姿 作 为 初始 估计 ， 
基于 环境 亮度 一 致 性 假设 与 距离 最 近 的 关键 帧 上 进行 比较 ， 得 
1 当前 帧 的 相对 位 姿 。 


Seri 


Ww 


SI’ (u, én) 
2 


Oslu ér) 


č, =argmin >》， (9) 


Su ieR 


p 


其 中 : 向 量 & 为 变换 矩阵 T, 的 李 代数 表示 B9，87(z ,二 ) 同 式 
(6)。o2 ASI (uné) 的 方差 ， 用 于 减 小 测量 噪声 对 位 姿 跟 踪 
的 影响 。 
在 LSD-SLAM 的 地 图 深度 估计 线程 中 , 会 根据 当前 帧 y 相 
对 于 关键 帧 上 移动 的 距离 dist(& ,)， 判 断 是 否 将 当前 帧 创建 为 
新 的 关键 帧 。 


dist(& 1) > EWE, (10) 

其 中 : w 为 权重 矩阵 。 若 位 移 量 超过 设 定 的 阔 值 ， 当 前 帧 就 会 
成 为 新 的 关键 帧 ， 得 到 从 上 一 关键 帧 投影 而 来 的 半 稠 密 像 素 点 
若 位 移 量 没有 超过 设 定 的 阔 值 ， 当 前 帧 就 会 从 帧 序列 中 选 
一 帧 图 像 作 为 参考 帧 ， 进 行 极 线 搜索 ， 得 到 当前 帧 中 显著 像 
素 点 的 深度 观测 值 (u) 与 方差 cz ， 再 采用 EKF 更 新 关键 由 
中 像素 点 的 深度 估计 值 与 方差 
V, (u,)d, (u, ) F c;d, (u;) 

V, (u,) +0; a1) 
V.(u;)o; 
V,(u;)+ 07 


wing 


aur 
o 


$ 


d, (Wi) — 


Vi(uj) < 


姑 为 单 目 相机 不 能 计算 像素 点 的 绝对 深度 ， 会 带 来 尺度 漂 
移 问 题 , 所 以 LSD-SLAM 对 前 两 个 线程 创建 的 全 局 地 图 进行 优 
化 。 对 于 保存 的 关键 帧 ， LSD-SLAM 通过 规定 所 有 像素 点 首 深 
度 的 均值 为 1 的 办 法 控制 全 局 地 图 的 尺度 ， 这 样 相 邻 关键 帧 之 
间 就 可 以 通过 带 有 尺度 变化 的 李 代 数 表 示 其 相对 位 姿 关系 69。 
LSD-SLAM 利用 场景 深度 与 跟踪 精度 的 内 在 联系 最 小 化 误差 ， 
得 到 两 个 关键 帧 之 间 的 相似 变换 6 : 


2 2 
Cu =argmin > ， 2 ($3) + a (u6) (12) 
s ieR Ostu 6) Casalu g) p 


其 中 ，8d(w,C; ) HAREMA TERA WRR, Cuu) 


为 该 深度 差 的 方差 。 最后，LSD-SLAM 依据 关键 帧 之 间 的 位 姿 
关系 和 图 像 内 容 进行 回环 检测 B27， 并 采用 捆 集 调整 算法 优化 全 
局 地 图 05。 
2.3 DSO 算法 分 析 

DSO 是 Engel 于 2016 年 发 布 的 一 种 单 目 稀疏 直接 法 视觉 
里 程 计 ， 在 2017 年 扩展 了 双 目 功能 B31。 与 SVO 一 样 ， 它 不 是 
完整 的 SLAM 系统 , 没有 回环 检测 模块 。 不 同 于 特征 点 法 需要 
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通过 匹配 特征 


we bse PF 
N 


， 将 


点 关联 数据 , DSO 将 数据 关联 与 
的 非 线性 优化 框架 中 求解 。 独 特 的 相 
和 滑动 窗口 优化 
直接 法 
于 直接 法 根 ] 
F 扰 。DSO 中 


立 姿 跟 踪 放 在 一 
机 光度 标定 模型 69 
， 使 得 DSO 拥有 良好 的 运算 速度 
V-SLAM 推 向 了 一 个 新 的 高 度 。 

居 图 像 的 灰 度 值 跟踪 相机 的 位 姿 ， 易 受 光 照 
旨 出 了 光度 标定 ， 对 相机 的 雷 影 (图 5$)、 曝 


ya 


41] 的 应 | 


、 伽 马 响应 


[9 进行 标定 ， 补 偿 它 们 的 影响 。 尝 影 是 因为 


透镜 之 间 的 遮挡 导 


致 光 强 由 图 像 中心 向 周围 逐渐 减 小 的 现象 ， 


重 映射 y:Q ->[0,1] 标定 ， 由 于 相机 的 曝光 模式 和 快 


门 打 开 方 式 不 一 ， 


表示 ;， 伽 马 响 应 非 线 性 
之 间 的 关系 ， 由 非 线性 


射 模型 为 


其 中 : B, 和 了 分 别 表示 第 i 帧 图 像 的 辐射 量 和 灰 度 值 。 


导致 不 同 场景 曝光 时 间 不 同 ， 由 曝光 时 间 + 
地 映射 相机 的 输入 曝光 量 和 输出 灰 度 值 


响应 函数 G:R — [0,255] 标定 。 灰 度 映 


灰 


I,(u)=G(tV (u)B,(u)) (13) 


DSO $% 


法 的 第 一 步 就 是 通过 


标定 之 


方程 式 〈13) 进行 灰 度 标定 ， 利 ) 


后 的 参数 进行 位 姿 


与 LSD-SLAM 类 似 ，DSO 的 前 端 


键 帧 来 跟踪 相机 的 
成 为 关键 帧 ， 并 将 


新 关键 帧 插入 后 端 优 


ERIR o 
骨 线 程 通过 匹配 新 帧 与 关 
位 姿 ， 然 后 通过 一 定 的 条 件 判断 新 帧 是 否 会 


化 线程 。 DSO 的 后 端 在 


个 滑动 窗口 内 对 


维护 的 5~7 个 关键 帧 〈 图 6) 进行 优化 。 在 


各 关键 帧 中 提取 深 
到 光度 误差 。 


度 收敛 的 像素 点 ， 投 影 至 其 他 关键 帧 中 ， 得 


EAE 


DSO 中 的 滑动 窗口 


优化 保存 一 定数 量 的 关键 


力 缘 化 处 理 。 


WET ID 


THO) B 


H] 
TH 


= 


了 优化 的 计算 量 ， 


阵 中 1]， 将 被 删除 帧 的 信息 


芷 为 先 验 信息 
又 实现 了 


多 化 中 的 边缘 化 通过 更 新 信息 矩 


N, 需要 将 多 余 的 


保存 在 信息 矩阵 中 ， 控 


良好 的 优化 效果 。 


色 6 


DSO 滑动 窗 


口内 的 关键 帧 


=D, (1,[u »,) (atu) b) (15) 图 7 DSO 重建 效果 
24 分 析 比较 
us u 为 像素 点 在 两 帧 中 的 图 像 坐标 ，t 、+ AEN I, 在 单 目 实现 的 情况 下 ,对 上述 各 SLAM 方法 进行 比较 , 结 
1 的 上 曝光 时 间 。a, 、a,;、b,、5; 为 光度 仿 射 参 数 ， 在 无 法 进行 PK 1 所 示 。 
光度 标定 的 情况 下 近似 实现 光度 标定 效果 。 表 1 直接 法 VSLAM 系统 分 析 比 较 
SVO LSD-SLAM DSO 
跟踪 精度 tok * 太太 交 
算法 效率 女友 女 * tow 
光照 变化 鲁 棒 性 * * kok 
快速 运动 鲁 棒 性 ok * tok 
重 定位 能 * took x 
图 5 SLRS 回环 闭合 能 x xk x 
最 后 滑动 窗口 通过 优化 光度 误差 之 和 1) 跟踪 精度 
Ba FIIR (15) SVO 是 一 种 半 直 接 法 视觉 里 程 计 , 仅 在 前 端的 稀疏 特征 点 
人 匹配 上 使 用 了 直接 法 ， 后 端 中 仍 使 用 重 投影 误差 维护 构建 的 地 
得 到 优化 的 关键 帧 与 像素 点 的 位 置 ， 进 而 维护 一 个 全 局 地 ”图 , 因此 跟踪 精度 会 优 于 以 直接 像素 匹配 进行 位 姿 跟踪 的 LSD- 
Al. RF, p 表示 滑动 窗口 内 的 关键 帧 集合 ，U, 表示 关键 帧 ; 。 ”SLAM。LSD-SLAM 通过 匹配 像素 进行 位 姿 跟 踪 ， 易 受 环境 光 
中 提取 的 像素 点 集合 ，obs(u) 表示 滑动 窗口 内 可 以 观察 到 像素 。 照 变 化 和 相机 曝光 等 因素 的 影响 ， 跟 踪 精 度 较 低 ， 但 由 于 它 是 
点 uw 的 关键 帧 集合 。 完整 的 SLAM 系统 可 以 进行 回环 检测 67, 通过 全 局 优化 在 一 定 
与 传统 的 捆 集 调整 对 全 局 的 关键 帧 和 特征 点 进行 优化 不 同 ， 程度 上 弥补 精度 不 足 的 缺点 。 DSO 创新 性 地 提出 了 光度 标定 方 


201805.00069v1 


chinaXiv 


录用 稿 


法 , 很 大 程度 上 解决 了 相机 曝光 等 因素 对 直接 像素 匹配 的 影响 ， 
滑动 窗口 优化 可 以 有 效 地 消除 误差 累计 ， 定 位 精度 较 高 。 在 只 
使 用 视觉 里 程 计 模块 的 情况 下 ， 根 据 文 献 [26] 在 EuRoc 数据 集 
行 的 结果 ,DSO 的 跟踪 精度 高 于 SVO，LSD-SLAM 的 跟 
踪 精 度 最 不 理想 。 
2) 算法 效率 
SVO 通过 直接 图 像 匹 配 巧妙 地 避免 了 耗 时 的 描述 子 计算 
与 匹配 , MAA EMEA Mbt, 运算 效率 极 高 , 在 CPU (i7 
处 理 器 /3 GHz) 上 可 以 达到 了 300 fps 左右 的 处 理 速度 ， 不 需 占 
用 大 量 计 算 资 源 。LSD-SLAM 对 图 像 中 像素 梯度 较为 明显 的 区 
域 提取 像素 点 ， 是 一 种 半 稠 密 直接 法 ， 需 要 求解 的 信息 矩阵 较 
为 稠密 ， 在 一 定 程度 上 影响 了 算法 的 效率 。 另 外 ，LSD-SLAM 
需要 对 关键 帧 进行 回环 检测 ， 所 以 算法 效率 较 低 ， 在 CPU G7 
处 理 器 /3 GHz) 上 的 处 理 速 度 为 20-30 fps 左右 。 DSO 是 稀疏 直 
接 法 ， 良 好 的 图 像 匹 配 能 力 使 得 它 可 以 通过 降低 图 像 分 状 率 达 
到 较 高 的 运算 速度 滑动 窗口 优化 的 使 用 控制 了 后 端 处 理 的 关 
键 帧 数 ， 计 算 量 较 低 。DSO 的 跟踪 精度 与 算法 效率 之 间 存 在 权 
衡 ， 通 常 图 像 分 辨 率 越 高 跟踪 精度 越 高 ， 但 算法 效率 越 低 。 在 
同等 跟踪 精度 下 ，DSO 的 算法 效率 优 于 LSD-SLAM。 
3) 光照 变化 鲁 棒 性 
直接 法 通过 比较 图 像 信息 来 实现 位 姿 跟踪 ， 容 易 受 光照 变 
化 的 影响 。SVO 对 图 像 中 像素 梯度 较 大 的 稀疏 点 进行 计算 ， 容 
易 受 环境 光照 不 一 致 变化 和 相机 曝光 时 间 不 同等 因素 的 影响 。 
LSD-SLAM 对 光照 变化 的 鲁 棒 性 也 受制 于 上 述 因素 。 光 度 标 定 
和 动态 估计 的 光度 参数 使 得 DSO 对 相机 成 像 引 起 的 图 像 明暗 
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现 重 定位 。 因 为 特征 点 描述 子 对 视角 变化 具有 不 变性 ， 所 以 


LSD-SLAM 重 定 位 的 鲁 棒 性 较 好 。DSO 和 
测 模 块 。LSD-SLAM 通过 特征 点 和 FAB-MAP 方法 检测 回路 ， 


SVO 都 没有 回环 检 


在 回环 发 生 时 通过 位 姿 图 优化 全 局 位 姿 ， 回 路 闭合 能 力 较 强 。 
3 ”直接 法 V-SLAM 的 优 缺 点 与 发 展 方向 


直接 法 基于 特殊 的 环境 亮度 不 变性 假设 建立 了 数据 之 间 的 


关联 


， 通 过 图 像 灰 度 值 构 建 了 


缺点 也 十 分 明显 。 
直接 法 的 优点 
直接 法 无 须 进 行 耗 时 的 ORBI, SIFT! 


3.1 


点 和 


标 函 数 中 的 残 差 ， 因 此 它 的 优 


44、SURFI7 等 特征 


接 法 普遍 可 以 达到 上 百 帧 每 秒 的 处 理 速度 。 


提取 


几 十 万 个 像素 点 的 信息 ， 对 存在 像素 梯 
重复 的 环境 中 仍 可 以 准确 跟踪 。 大 量 图 像 信息 
用 ， 也 使 得 直接 法 可 以 恢复 稠密 或 半 稠 密 的 场景 地 图 。 另 
外 ， 无 须 特征 匹配 ， 直 接 法 以 更 加 整体 和 重 棒 的 方式 进行 数据 
E 点 误 匹 配给 SLAM 系统 带 来 的 致命 影响 ， 可 


特征 缺失 、 纹 a 


的 使 


KEK, HG SA 
以 提供 更 高 的 精度 和 系统 稳定 性 。 
3.2 直接 法 的 缺点 
直接 法 的 非 线性 优化 基于 图 像 像 素 梯度 ， 对 代价 函数 但 
梯度 下 降 求解 最 优 值 。 因 为 图 像 像素 的 非 凸 性 ， 优 化 过 程 容易 


陷入 局 部 极 小 值 ， 所 以 直接 法 需要 一 个 不 错 的 初始 位 姿 估计 值 


者 述 子 的 提取 与 匹配 过 程 ， 因 此 运算 效率 较 高 。 在 相同 的 
计算 资源 条 件 下 ， 相 比 于 特征 点 法 几 十 帧 每 秒 的 运算 能 力 ， 直 


并 且 与 特征 点 法 只 


图 像 中 几 百 个 像素 点 作为 特征 点 不 同 ， 


直接 法 使 用 图 像 中 


度 的 区 域 进行 匹配 ， 在 


变化 会 有 更 鲁 棒 的 效果 ， 但 对 于 环境 光照 不 一 致 变化 的 作用 有 
限 。 

4) 快速 运动 鲁 棒 性 

能 否 在 相机 快速 运动 的 情况 下 跟踪 相机 的 位 姿 ， 体 现 了 
SLAM 算法 对 相机 快速 运动 的 鲁 棒 性 。 不 同 于 特征 点 法 中 特征 
点 描述 子 可 以 在 相机 大 运动 的 情况 下 进行 匹配 的 特点 ， 直 接 法 
假设 相机 平缓 运动 ， 在 位 姿 跟 踪 中 需要 有 一 个 良好 的 相机 位 姿 
作为 初始 值 进行 图 像 匹配 。 因 此 直接 法 的 快速 运动 鲁 棒 性 都 不 
是 很 好 。LSD-SLAM 在 跟踪 时 要 处 理 半 稠密 的 像素 点 ， 对 相机 
运动 速度 最 为 敏感 ， 快 速 运动 鲁 棒 性 不 好 。SVO 的 跟踪 效率 很 
高 ， 相 机 位 姿 预测 和 基于 图 像 金字 塔 模型 的 匹配 在 一 定 程度 上 
弥补 了 快速 运动 鲁 棒 性 的 不 足 。DSO 可 以 通过 调节 图 像 分 辩 率 
实现 快速 运动 跟踪 ， 鲁 棒 性 优 于 LSD-SLAM 。 

5) 重 定位 /回环 闭合 能 力 系统 在 实际 运行 中 会 出 现 位 姿 跟 
踪 丢 失 的 情况 ， 重 定位 模块 可 以 恢复 丢失 的 位 姿 。DSO 中 没有 
重 定位 模块 。SVO 通过 维护 关键 帧 组 成 的 局 部 地 图 ,在 跟踪 丢 
失 的 情况 下 将 当前 帧 与 最 近 的 关键 帧 进行 匹配 恢复 初始 位 姿 ， 
再 把 局 部 地 图 中 的 特征 点 投影 到 当前 帧 进行 特征 匹配 和 位 姿 优 
化 来 实现 重 定位 。 该 方法 鲁 棒 性 不 足 ， 当 前 帧 与 关键 帧 的 位 姿 
变化 较 大 时 ， 就 不 容易 重 定位 成 功 。LSD-SLAM 在 位 姿 跟踪 丢 
失 的 情况 下 ， 使 用 特征 点 描述 子 和 FAB-MAP 检索 方法 B7 来 实 


ral 
Hr 


好 


和 较 高 的 图 像 质量 。 因 此 ， 在 相机 运动 速度 较 快 和 拍摄 帧 率 不 


高 的 情况 下 ， 位 姿 跟踪 容易 丢失 。 另 外 ， 环 境 光 度 一 致 性 假设 


是 一 种 较 强 的 假设 ， 对 ] 
变化 、 


快 ? 


环境 的 光照 要 求 较 高 。 相 机 曝光 时 间 的 


了 ] 的 打开 方式 、 相 机 对 曝光 的 调节 和 环境 光照 条 件 的 


变化 都 会 使 得 跟踪 算法 失效 。 因 此 需要 使 用 特殊 功能 的 相机 (如 


基于 


shutter ) 


能 如 
位 和 


特征 点 法 一 样 对 存 


事件 的 相机 event-cameral4849)、 全 局 曝光 的 镜头 〈global 


3.3 直接 法 的 发 展 方向 


但 还 未 达到 成 熟 的 水 3 


究 


和 光度 标定 方法 。 最 后 ， 直 接 法 中 无 法 使 用 特征 点 , 不 
渚 的 特征 点 和 描述 子 进行 匹配 实现 重 定 
可 环 检 测 ， 需 要 创新 直接 法 的 重 定位 、 


可 环 检测 模块 。 


直接 法 的 提出 为 解决 V-SLAM 问题 提供 了 一 条 新 的 思路 ， 


3.3.1 多 传感器 融合 
直接 法 V-SLAM 使 用 相机 作为 传感器 ， 


EE， 仍 存在 许多 问题 可 以 开展 进一步 的 


易 受 光 照 影响 ,在 


青 况 下 位 姿 跟踪 容易 丢失 。 传 统 的 


器 件 进行 长 时 间 定 


镜头 遮挡 、 相 机 抖动 严重 的 ; 
定位 方法 也 存在 许多 不 足 。 使 用 IMU iiH 
位 ， 累 计 误 差 严 重 ; 民用 GPS 的 精度 较 差 ， 
严重 的 情况 下 难以 获得 位 置信 


在 各 


的 


在 室内 和 室外 遮挡 


号 。 基 于 单一 传感器 的 定位 都 存 


局 限 性 ， 多 传感器 的 融合 可 以 提高 系统 的 精度 与 鲁 棒 


性 。 相机 与 IMU 惯性 器 件 融合 ,可 以 将 相机 采集 的 丰富 图 像 信 
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IMU 惯性 器 件 的 短 时 精确 测量 数据 进行 耦合 505 , 实 


SLAM 效果 。 
好 的 相机 位 姿 初 始 值 进行 


直接 法 基于 像素 梯 
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ni: 


这 一 问题 。 另 外 ,精确 的 位 姿 跟踪 也 可 以 ) 
bias 漂移 。 但 与 其 他 类 型 传感器 的 融合 会 : 
增加 信息 矩阵 的 稠密 度 ， 
化 参数 过 多 的 问题 ， 可 
天 化 的 方法 ， 将 收敛 的 参数 边缘 化 ， 作 为 先 验 信息 传递 给 后 
直接 法 V-SLAM 与 IMU | 


X 


件 的 
SLAM 优化 线程 中 的 参数 量 ， 
统 的 实时 性 。 为 了 解决 优 


续 待 优化 的 参数 。 目 前 ， 
合 的 工作 主要 有 文献 [26,35]。 
3.3.2 回环 检测 / 重 定位 模块 


兽 加 


度 进行 位 姿 跟 踪 ， 需 要 
优化 , IMU 惯性 器 件 可 以 很 好 地 
于 消除 IMU 惯性 器 
Beis: V- 


直 


解决 


KA 


以 


使 


Ji 


动 窗 


贯 性 器 件 融 


直接 法 VSLAM 直接 使 用 


通过 匹配 图 


像 特征 来 进行 回环 


z 


页 


难以 实现 地 图 重用 


的 问题 ， 


像 的 像素 信息 进行 位 姿 跟 
地 图 建立 ， 缺 少 了 图 像 特 征 提取 过 程 ， 难 以 如 特征 点 法 一 样 ， 
检测 和 重 定位 。 为 了 解决 直 


LSD-SLAM 中 提取 特 


前 主要 有 两 种 研究 思路 。 
E 点 进行 回环 检测 和 重 定位 一 样 , 可 以 将 


踩 与 


接 法 
种 如 


村 征 点 法 与 直接 法 的 优势 结合 到 一 起 。 利 用 特征 点 法 提取 的 特 
征 实现 地 图 重用 功能 ， 结 合 直接 法 跟踪 效率 高 、 系 统 鲁 棒 和 使 


用 图 像 信息 丰富 的 


经 网 络 提取 图 
的 使 


I AF 
FAR 


时 重 定位 54。PoseNet 卷 积 神 


点 ， 创 建 一 个 融合 
是 利用 深度 学 习 方 法 ， 匹 配 关键 帧 图 像 实 现 地 图 重 上 
像 中 识别 率 更 高 的 深层 次 特 4 
可 以 提升 SLAM 系统 
HZ. Kendall 在 2015 年 提出 了 PoseNet 


的 系统 。 另 一 种 思路 就 


Jo TR 


~ 


度 学 


£153] 。 


ua 


深度 


环 检测 和 重 定位 的 准 
实现 了 相机 位 姿 的 实 


经 网 络 利 用 带 有 重 构 
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相机 位 姿 的 图 像 数 据 对 
对 相机 的 位 姿 进 行 重 定 


V-SLAM 结合 方面 ，Zhou $i 


经 网 络 进行 训练 ， 采 上 
立 。 类 似 的 工作 还 有 文献 [55~57]。 
3.3.3 直接 法 V-SLAM 与 深度 学 习 融 合 

深度 学 习 是 近年 来 的 研究 热点 。 作 为 一 种 端 到 端的 方法 ， 
深度 学 习 可 以 替代 SLAM 系统 中 的 某 一 个 模块 , 或 者 采用 
统 的 框架 直接 解决 机 器 人 导航 问题 585。 在 深度 学 习 与 直接 法 


端 到 端的 方法 


一 致 性 假设 ， 使 用 
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CNN 来 估计 每 一 帧 图 像 的 深度 信息 并 跟踪 


相机 位 姿 ， 蔡 代 了 传统 SLAM 系统 前 端 中 的 部 分 模块 。SfM- 


Netl IZE SfM-Learner 的 基础 上 计算 了 光 流 和 


三 维 点 云 。 类 


工作 还 有 [62]。CNN-SLAMI63] 使 用 直接 法 跟踪 相机 位 姿 ， 


CNN 来 估计 场景 深度 
语义 信息 的 场景 地 图 
制 等 方面 也 做 了 一 定 的 工作 。 


对 图 像 进行 语义 分 割 , 得 到 
。 男 外 文献 [64,65] 在 特征 点 提取 、 语 义 分 
有 严格 


+A 
结合 


SLAM 问题 是 一 个 


数学 表达 的 几何 问题 ， 而 深度 学 习 更 擅长 在 
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像 语义 等 SLAM 更 高 级 的 应 | 
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EZ SLAM 技术 的 发 展 。 
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近年 来 ，SLAM 


自主 航行 无 人 机 以 及 无 人 驾驶 汽车 等 硬 们 


器 以 及 高 性 能 图 像 处 理 单元 的 发 展 与 普及 ， 
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技术 越 来 越 多 地 被 应 用 在 虚拟 现实 终端 、 
平台。 各 式 硬 件 传 感 
EZ% SLAM 技术 


以 的 
LEA 


HA 


可 与 


朝 


着 高 精度 、 强 鲁 棒 、 多 传感器 融合 的 方向 发 展 。 
直接 法 V-SLAM 技术 的 提出 ， 为 解决 SLAM 问题 提供 了 


直 
条 
法 
接 
功 
技 


条 新 的 思路 ， 弥 补 了 一 些 特征 点 法 V-SLAM 技术 的 不 足 。 但 
接 法 仍 存在 许多 缺点 ， 受 限于 诸如 环境 光照 条 件 、 相 机 运动 
件 、 地 图 重用 困难 等 情况 的 限制 。 这 就 对 直接 法 VSLAM 算 
提出 了 更 高 的 鲁 棒 性 和 功能 拓展 的 要 求 。 如 何 进一步 提高 直 
法 VSLAM 对 环境 光照 和 相机 运动 的 鲁 棒 性 , 实现 地 图 重用 
能 将 是 一 个 很 有 价值 的 研究 方向 。 此 外 ， 深 度 学 习 与 SLAM 
术 的 结合 在 一 定 程度 上 改善 了 传统 SLAM 算法 的 局 限 性 , 为 


SLAM 更 高 级 的 应 用 提供 了 思路 。 将 深度 学 习 应 用 到 直接 法 V- 


SLAM 系统 中 将 是 


个 充满 意义 又 富有 挑战 的 研究 方向 。 
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